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В статье излагаются основные принципы разработки базовых лингвистических ресурсов естественного 
языка. Приводится перечень основных составляющих, дается описание технологии создания этих 
ресурсов. В качестве примера использования предлагаемой технологии рассматривается разработка 
базовых лингвистических ресурсов белорусского и русского языков. 


Введение 


В настоящее время формируется новое поколение информационных технологий, 
основанных на концепции интегрированной информационной среды, обеспечивающей 
хранение, обработку и распространение значительного объема информации в промыш- 
ленных масштабах. Это приводит к тому, что меняется подход к анализу естественного 
языка (ЕЯ) — на первый план выходят вопросы, связанные с разработкой и эффектив- 
ным использованием моделей представления знаний о ЕЯ (или иначе, лингвистических 
знаний) в условиях хорошо организованных лингвистических экспериментов. 

При решении проблемы разработки и представления знаний о ЕЯ необходимо, 
прежде всего, учитывать, что язык, «являющийся средством отражения действитель- 
ности в человеческом коллективе... представляет собой незамкнутую и поэтому не 
формализуемую до конца систему» [1]. Трудность или даже невозможность полной ее 
формализации обусловлена следующими свойствами ЕЯ [2], [3]: 

— конфронтацией визуального (языкового, «словарного») значения и отличного от 
него актуального (текстового) смысла лингвистической единицы; 

— парадоксом языка и идиолекта (индивидуального владения языком), проявляю- 
щегося в различных интерпретациях границ значения слова у отдельных носителей 
языка; 

— постоянной изменчивостью языка как во времени, так и в географическом и 
социальном пространстве; 

— потенциальной бесконечностью и открытостью лингвистических множеств, обуслов- 
ленных динамичностью и метафоричностью ЕЯ; 

— нечеткостью лингвистических объектов (в первую очередь семантических) и раз- 
мытостью границ совокупностей этих объектов. 

Лингвистические знания должны обеспечивать многоаспектность изучения и 
самые разнообразные преобразования реального языкового материала, как правило, 
очень большого объема [4]. Можно сказать, что формализованное представление 
лингвистических знаний есть не что иное, как лингвистические ресурсы интел- 
лектуальной информационной системы. Эти ресурсы в виде совокупности различного 
рода корпусов текстов, словарей, грамматик, правил построения семантических кон- 


232 «Искусственный интеллект» 12009 


Разработка базовых лингвистических ресурсов естественного языки... БР 


струкций, иными словами, в виде так называемых лингвистических баз знаний (ЛБЗ), 
являются составной частью развитых лингвистических процессоров (ЛП), обеспечиваю- 
щих создание совершенно новых технологий работы с текстовыми документами, ко- 
торые включают их автоматическое чтение, речевой ввод/вывод, ЕЯ-интерфейс поль- 
зователя, семантический поиск, машинный перевод и автоматическое реферирование, 
распознавание, извлечение и управление знаниями и т.п. 

Каждый модуль информационной системы, выполняющей определенную обра- 
ботку ЕЯ, можно разделить на алгоритмическую (функциональную) часть и ее 
лингвистическое наполнение. При проектировании систем лингвистические ресурсы 
выделяются в отдельный блок и хранятся в формате, доступном для изменения. Это 
обеспечивает разделение работы экспертов, инженеров по знаниям и программистов, 
что очень важно при разработке интеллектуальных информационных систем [5]. 

Работы по созданию лингвистических ресурсов национальных языков ведутся 
во всех развитых странах мира, поскольку давно стало очевидным, что создание 
таких ресурсов — это путь к созданию новых информационных технологий, 
базирующихся на системах обработки данных на ЕЯ в интеллектуальной среде 
общения человека и компьютера. Например, в рамках созданного в 1992 г. в США 
лингвистического консорциума (ГОС — Миги15йс Ра Сопзогият), обеспечиваю- 
щего механизм координации крупномасштабных исследований и распределения 
ресурсов в области информационных технологий, ведутся работы практически со 
всеми языками мира, в том числе с восточно- и центрально-европейскими языками: 
болгарским, чешским, эстонским, венгерским, румынским, словенским, русским [6]. 

Целью данной статьи является описание основных принципов и этапов 
разработки базовых лингвистических ресурсов ЕЯ, использования предлагаемой тех- 
нологии при разработке базовых лингвистических ресурсов белорусского языка, а 
также описание приложений разработанных лингвистических ресурсов. 


1. Понятие базовых лингвистических ресурсов 


Под базовыми лингвистическими ресурсами любого ЕЯ для информационных 

систем понимаются: 

— исходный корпус текстов данного ЕЯ; 

— классификатор свойств ЕЯ на различных уровнях его глубины; 

— базовый словарь ЕЯ; 

— аннотированный корпус текстов данного ЕЯ (иначе называемый эталонным); 

— распознающие лингвистические модели анализа текста на различных уровнях глу- 
бины ЕЯ. 

В создании лингвистических ресурсов сегодня главную роль играют корпусы 
текстов — некоторые определенным образом подобранные конечные множества текс- 
тов языка. Будем эти тексты называть исходным корпусом текстов (ИКТ) заданного 
языка Г. 

В компьютерной лингвистике принято следующее определение: корпус текстов — 
это вид корпуса данных, единицами которого являются тексты или их достаточно 
значительные фрагменты, включающие полные фрагменты макроструктуры текстов 
данной проблемной области. Это определение основывается на следующих приз- 
наках [7]: 

— корпус текстов должен быть достаточно большого объема; 

— он должен быть структурированным или размеченным; 

— тексты, составляющие определенный корпус, должны храниться в электронном виде; 
— в понятие «электронный корпус» входит, как правило, специальное программное 
обеспечение для работы с этим корпусом. 
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Значимость корпуса текстов состоит в следующем: 

а) однажды созданный корпус может многократно использоваться; 

6) корпус показывает языковые данные в их реальном окружении, что позволяет 
исследовать лексическую и грамматическую структуру языка, а также непрерывные 
процессы языковых изменений, происходящие в языке на протяжении определенного 
отрезка времени; 

в) корпус характеризуется представительностью, или сбалансированным составом 
текстов, что позволяет использовать его для тестирования поисковых машин, машинных 
морфологий, систем перевода и т.п., а также использовать его в различных лингвисти- 
ческих исследованиях. 

Первая задача при создании корпуса состоит в определении его объема, поскольку 
частотность и релевантность любого лингвистического явления прослеживается тем 
лучше, чем больше словоупотреблений входит в корпус. 

Следующей важной характеристикой корпуса является его репрезентативность. 
Корпус должен с максимальной объективностью представить разнообразие изучаемого 
явления и дать в то же время объективную картину бытования этого явления в речевой 
практике носителей данного языка. 

Основным назначением ИКТ является использование его как информационной 
основы для получения количественных измерений (оценок) ЕЯ и для испытания 
лингвистических гипотез на различных структурных уровнях ЕЯ, начиная с алфа- 
вита и заканчивая текстом, и различных уровнях его глубины — от морфологии до 
семантики и прагматики. 

Количественные измерения языка могут касаться: 

а) комбинаций символов, морфем, канонических форм, словоупотреблений; 

6) состава и комбинаций грамматических конструкций; 

в) кодирования частей речи; 

г) частотности лингвистических объектов разных структурных единиц языка 
как в тексте в целом, так и в отдельных его частях и т.д. 

Лингвистические гипотезы могут, например, высказываться в отношении при- 
менимости формальных грамматических правил и ограничений на их использование; 
особенностей диалогового, учебного, научно-технического и других подъязыков; 
моделей выделения тех или иных единиц языка, классификации стилистических 
явлений, алгоритмов построения семантического пространства в языке и т.п. 

Таким образом, ИКТ - это большая по объему автоматизированная макросистема, 
включающая ряд подсистем (корпусов) текстов как фондов, ориентированных на 
фиксацию фактов языка. Такие фонды относятся к подсистемам регистрирующего типа 
в отличие от систем, ориентированных уже на ту или иную интерпретацию языковых 
данных (фонды словарных статей, грамматик и т.п.). 

Очевидно, что ИКТ сам по себе не может обеспечить решения всего аспекта задач, 
связанных с получением количественных оценок языка и испытанием лингвистических 
гипотез, особенно если речь заходит о более высоких, чем морфологический, уровнях 
его глубины. Он является лишь основой создания соответствующих средств в виде 
совокупности так называемого аннотированного корпуса текстов и инструментальных 
средств доступа, извлечения и анализа естественноязыковой информации. 

Полезность корпуса возрастает, когда он аннотируется, т.е. каждое слово в нем 
снабжается лексико-грамматическим, синтаксическим или семантическим кодом в зави- 
симости от уровня обработки текста. Аннотирование выполняется с учетом контекста. 
Аннотированный текст превращается в текст как хранилище лингвистической инфор- 
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мации. Для разных задач требуются различные уровни аннотации текста, на которых 
вырабатывается различный объем дополнительных сведений. Выделяются следующие 
уровни такого типа [8]: 

а) лемматизированные тексты, в которых для каждого слова указывается его 
основная форма и часть речи; 

6) тексты с морфологической информацией, в которых для каждого слова указы- 
ваются его основная форма, часть речи и полный набор морфологических характе- 
ристик; 

в) тексты с синтаксической информацией, в которых для каждого слова указы- 
ваются его основная форма, часть речи и морфологические характеристики, а также 
для каждого предложения указывается его синтаксическая структура. 

Аннотированный корпус применяется в максимально широком круге приложений. 
Для такого применения необходимо подобрать формат записи аннотационной информа- 
ции, отвечающий следующим условиям: 

а) наличие нескольких «слоев» информации, извлекаемых из разметки незави- 
симо друг от друга; 

6) потенциальная расширяемость на типы информации, не охватываемые анно- 
тацией на настоящем этапе. 

Для аннотирования текстов на различных уровнях глубины языка используются 
определенные системы кодирования, преобразующие нечеткие лингвистические объек- 
ты в соответствии с некоторой единой процедурой в дискретные лингвистические 
единицы, что позволяет работать далее не с конкретными структурными единицами, а с 
их классами. Для этой цели служат специально разрабатываемые классификаторы, 
содержащие различные типы лингвистической информации [7]. На сегодняшний день 
главной в аннотированных корпусах текстов была и остается информация о частях 
речи, которая фиксируется в процессе лексико-грамматического кодирования, цель 
которого состоит в том, чтобы назначить каждой лексической единице код, указываю- 
щий на часть речи, или иначе лексико-грамматический код (ЛГК). 

Таким образом, первым разрабатываемым классификатором (базовым) является 
лексико-грамматический классификатор. При его создании используется подразделение 
слов на лексико-грамматические классы, называемые традиционно частями речи. При 
этом учитывается, что если набор грамматических признаков, описывающих слово и 
составляющих его характеристику, представить в виде иерархической структуры, то 
высший ярус займет признак части речи, поскольку он покрывает практически всю 
лексику [9]. 

Синтаксический классификатор лексических единиц и отношений включает 
синтаксические классы (коды), которые используются для классификации структурных 
элементов синтаксически проанализированных предложений. Семантический класси- 
фикатор лексических единиц и отношений содержит семантические классы (коды), 
которые используются для классификации структурных элементов дерева фразы на 
семантическом уровне. 

Синтаксический и семантический классификаторы, во-первых, дополняют описан- 
ный выше лексико-грамматический классификатор и, во-вторых, классифицируют 
только те элементы и отношения, которые распознаются в текстовых документах на 
соответствующих уровнях глубины языка. Эти уровни определяют в конечном счете 
основные типы знаний, на извлечение которых ориентированы различные виды анализа 
текста. 

Среди базовых лингвистических ресурсов особое место занимают машинные 
словари ЕЯ — упорядоченные конечные массивы лингвистической информации, 
представленные в виде списков или таблиц, удобных для размещения в памяти компью- 
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тера, и снабженные программами автоматического поиска и ведения. Машинный словарь 
всегда является одним из главных компонентов любой интеллектуальной информацион- 
ной системы. Поэтому вопросы, связанные с организацией хранения словарей, поиска в 
них, корректировки и др., играют важнейшую роль при проектировании таких систем. 

Особое место занимают аннотированные машинные словари, называемые базо- 
выми или эталонными. Такой словарь включает максимально возможное количество 
слов ЕЯ, при этом каждому из них указано множество всех соответствующих ему 
вне контекста ЛГК. 

Структурный анализ текстов позволяет выявить, что каждый ЕЯ функциони- 
рует в соответствии с единой и фиксированной системой правил. Такая система 
правил, иначе распознающих лингвистических моделей (РЛМ), является основой, 
необходимой для осуществления требуемого анализа текста. В частности, множест- 
во РЛМ для лексико-грамматического анализа, по сути, есть грамматика ЕЯ в ее 
классическом понимании. 

РЛМ - это один из способов формализации языковой компетенции в целях 
автоматического анализа текста на всех уровнях его глубины. РЛМ применяются для 
эксплицитного описания конкретных языковых ситуаций и определенных действий 
над лексическими единицами, их свойствами, отношениями и т.п. в анализируемом 
тексте. 


2. Технологическая схема создания 
базовых лингвистических ресурсов 


Разработка промышленных информационных систем требует ориентации на 
огромные объемы реальных текстов, и используемые в этих системах лингвистические 
ресурсы должны соответствовать этим текстам, а значит, должны фактически извле- 
каться из этих текстов. Исходя из этого, можно определиться с принципиальной 
технологической схемой создания базовых лингвистических ресурсов. 

Для получения такого рода ресурсов предлагается метод, основанный на 
иерархическом, в смысле уровня структурных единиц ЕЯ, представлении ИКТ так, 
что уровень 70 (слов) определяет более высокий уровень 75-+/ (фраз), который в свою 
очередь определяет уровень еще более высокого порядка и т.д. вплоть до уровня /*, 


соответствующего тексту в целом. Обозначим через К®, К”, ... К“ 
классификаторы семантико-грамматических свойств структурных единиц языка 
соответствующего уровня, А”), А”,..., А” — процедуры семантико-грамматичес- 
кого анализа ИКТ, Т®), Т®,..., ТГ”) — корпусы аннотированных текстов для ИКТ. 


Применяя А”) к ИКТ, получим Т®? , затем применяем А“? к Т®) и получаем Г” итд. 
пока не получим 7”. 


Каждый аннотированный корпус текстов Т”” представляет собой ИКТ с выде- 


ленными в нем для каждого текста структурными единицами ЕЯ Г уровня 7^, для 
которых указаны их семантико-грамматические свойства в соответствии с классифика- 


тором К°”, сгенерированные процедурой А”. В качестве структурных уровней 


языка рассматриваются уровни слова, фразы, предложения, текста. Процедура А” 


может быть ручной, автоматизированной или автоматической. 
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На начальном этапе вся работа сосредотачивается на уровне 7%, т.е. строится 
Т®) по следующей обобщенной схеме: 


Этап 1. Разработать минимальный с точки зрения трудоемкости и точности 
решения планируемых задач ИКТ То. 


Этап 2. Разработать классификатор К“” семантико-грамматических свойств 
ЕЯ Г на уровне слова. 

Этап 3. Автоматически получить из То исходный словарь словоформ ЕЯ Г. 
Назовем его эталонным словарем и обозначим О. 

Этап 4. В диалоговом режиме приписать каждому слову из Р множество 


соответствующих ему вне контекста свойств (кодов) из К и полученный словарь 
обозначим О®. 
Этап 5. Используя словарь 2“, осуществить автоматическую идентифика- 


цию То: приписать каждому слову из Ту соответствующее ему по словарю ШО“ 
множество кодов. 

Этап 6. В диалоговом режиме, используя контекст, снять, где необходимо, в 
«обогащенном» кодами на этапе 5 ИКТ То многозначность. 

В итоге формируется аннотированный корпус текстов ЕЯ Г уровня 1%, в 
котором для каждого словоупотребления указан единственный код в соответствии с 


классификатором К“). Отметим, что для последующих структурных уровней языка 
общая схема останется в целом такой же, только, например, на уровне фразы в 
качестве отдельной статьи словаря О”? будет выступать цепочка кодов из К”) и 
соответствующие ей коды из классификатора К“ ит.д. 

Ранее уже подчеркивалось, что при создании ИКТ первоочередной является 
задача определения его объема. И если первые корпусы текстов английского языка 
(ТЬе Гапсазег/Оз$ю-Вегоеп Согриз (ОВ), Фе Вто\уп Чшуегзйу Согриз), разработка 
которых велась уже в 60-е годы прошлого века, содержали 1 млн слов, то, к примеру, 
в корпусе современного английского языка Тфе ВиизВ МаНопа! Согриз (ВМС) 4124 
текста с общим количеством слов более 100 млн [10]. При этом следует учитывать, 
что английский язык принадлежит к флективно бедным языкам, для которых 
различие между словом и словоформой (грамматической формой слова) практически 
отсутствует. Для флективно богатых языков, например, белорусского, русского, 
украинского, различие между словом и словоформой существенно. Слова в белорус- 
ском языке, в зависимости от части речи, могут иметь до 28 грамматических форм. 
Поэтому в идеале минимальный размер корпуса для таких языков, исходя из объема 
базового словаря в 100 тысяч слов, должен быть не менее 3 млн словоупотреблений. 

Для определения репрезентативности ИКТ следует исходить из предположения, 
что ИКТ будет ориентирован на современные потоки научно-технической, деловой и 
общественно-политической информации, поэтому можно выделить следующие крите- 
рии подбора текстов: 

— лексика должна отражать современное языковое употребление и представлять «основ- 
ное лингвистическое поведение»; 

— тексты должны быть широко читаемыми, поскольку именно такие тексты оказы- 
вают наибольшее влияние на развитие языка; 

— могут не рассматриваться многие области технического языка за исключением тех, 
лексика которых «просачивается» в повседневное использование; 

— исключаются маломасштабные области; 

— вводятся ограничения на характеристики источников текстов и тематику. 
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При отборе текстов должны учитываться следующие основные положения: 

— тексты должны быть жанрово однородны, т.е. принадлежать одному жанру, без 
цитирования произведений иных жанров; 

— тексты должны быть авторски однородны (принадлежать одному автору), с мини- 
мизацией диалогов, цитирования иных авторов; 

— тексты должны максимально отражать синтаксические и морфологические особен- 
ности жанра, т.е. при отборе текстов предпочтение должно отдаваться текстам с 
максимально выраженными различиями в пределах одного жанра (синтаксическими, 
стилистическими и т.д.); 

— задачей ИКТ не является собственно анализ лексики, таким образом, тексты не 
должны быть перегружены малочастотной лексикой. 

Аннотирование и разработка базового словаря требуют наличия классификаторов, 
позволяющих преобразовать все нечеткие лингвистические объекты в соответствии с 
некоторой единой процедурой в дискретные лингвистические единицы с использо- 
ванием эффективной системы их кодирования [9]. 

Для ЕЯ различают такие структурные единицы, как морфема, словоформа, 
фраза, предложение, дискурс, текст. Каждая из этих структурных единиц образуется 
на основе определенных правил конкретного ЕЯ. В соответствии с этими правилами 


каждой /-й структурной единице 1-го уровня, обозначим ре ‚ может быть постав- 


лено в соответствие множество о ее морфологических, синтаксических и семанти- 


ческих свойств, известное под названием кода. 
В зависимости от поставленной задачи структурные единицы ЕЯ любого из 
указанных уровней с соответствующими множествами свойств могут быть взяты в 


качестве элементов словаря (19 ) и ’) (в самом общем смысле этого слова). 


В настоящее время не существует стандартов на представление подобной информа- 
ции, однако на основе проведенного анализа можно сделать следующие предположения 
относительно системы кодов: 

а) код должен быть лаконичным и в то же время избыточным; 

6) код должен снимать омонимию, т.е. быть однозначным; 

в) код должен обеспечивать наличие нескольких «слоев» информации, извле- 
каемых из разметки независимо друг от друга, а также потенциальную расширяе- 
мость на типы информации, не охватываемые аннотированием на определенном 
этапе. 

На уровне слова используется основной тип лингвистического кодирования — 
морфологический анализ, или аннотирование по частям речи. Он направлен на то, 
чтобы с минимальными потерями информации получить достоверное представление 
текстов различных предметных областей на уровне отдельных слов [11]. Подобный 
вид кодирования увеличивает определенность поиска данных в корпусах текстов и 
формирует основу для синтаксического и семантического анализа. 

Перечисленные выше принципы описывают процесс формирования так назы- 
ваемых статических компонентов (собственно БД) базовых лингвистических ресурсов. 
Существует также и динамический компонент — БД распознающих лингвистических 
моделей. 

В общем случае отдельную РЛМ формально можно представить в виде 


«условие —> операция». (1) 


Условие представляет собой лингвистический паттерн (шаблон), задающий 
конкретную языковую закономерность. Паттерн — это формальная спецификация 
свойства набора примеров, определенная в терминах некоторого формального языка. 
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Приведем пример одного из возможных условий РЛМ: 
«последовательность из двух слов, первое из которых являет- 
ся либо точкой, либо восклицательным, либо вопросительным 
знаком, а второе - словом с большой буквы». 


Например, ... ? Ответом ... 
.... Алгоритм ... 


о ЗО 

Следует заметить, что в данном конкретном примере языковая ситуация опи- 
сывается с использованием только лексических единиц. Однако в общем случае, при 
ее описании могут использоваться и другие уровни языка: ЛГК, синтаксические и 
семантические классы и т.д. 

Если некоторый фрагмент анализируемого текста удовлетворяет условию, то 
над ним производится соответствующая операция. Выделяется два основных типа 
операций в соответствии с тем, какие действия они проводят — оценочные операции 
(например, считать данный ЛГК у определенного слова истинным) и трансфор- 
мационные операции (например, изменить ЛГК у конкретного слова из текста на 
другой ЛГК). Например, при выполнении приведенного выше условия операцией 
будет: 

«считать первое слово, т.е. любой из трех указанных знаков, 
границей предложения» 
и эта операция является операцией оценочного типа. 

РЛМ указанного типа разрабатываются для задач форматирования текста, разбие- 
ния текста на слова и предложения, распознавания идиом, лексико-грамматического, 
основанного на правилах, анализа текста, синтаксического и семантического анализа 
текста. Распознающие лингвистические модели синтаксического анализа текста вклю- 
чают РЛМ распознавания именных и глагольных групп, а также глагольного управ- 
ления; последние фактически реализуют начальный (базовый) этап уже семантического 
анализа текста. 


3. Базовое лингвистическое обеспечение 
белорусского и русского языков 


Описанные выше аспекты разработки базовых лингвистических ресурсов нашли 
свое отражение при построении Компьютерного фонда белорусского языка (КФБЯ) 
(работа осуществлялась научно-исследовательской лабораторией интеллектуальных 
информационных систем Белорусского государственного университета). 

Был разработан классификатор лексико-грамматических свойств белорусского и 
русского языков, базовые словари и аннотированные корпусы текстов для указанных 
ЯЗЫКОВ. 

При разработке классификатора были учтены принципы кодирования примени- 
тельно к языкам с разветвленной флективной системой. При создании классификатора 
использовалось подразделение слов на лексико-грамматические классы, называемые 
традиционно частями речи: имя существительное, имя прилагательное, глагол и др., 
исходя из того, что, если набор грамматических признаков, описывающих слово и 
составляющих его характеристику, представить в виде иерархической структуры, то 
высший ярус ее займет признак части речи, поскольку он покрывает практически всю 
лексику. 
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Далее учитывались не только классы слов, но и подклассы. Например, место- 
имения распадаются на ряд подклассов, различных по лексическим значениям, морфо- 
логическим формам и синтаксическим функциям, например, личные, возвратные и 
притяжательные местоимения и т.п. 

Классификатор представляет собой систему грамматических свойств с элемен- 
тами семантики белорусского языка и имеет два уровня. Первый уровень включает 
96 кодов и характеризует словоизменительную парадигму в целом, т.е. это код, который 
одинаков у всех слов из парадигмы. Второй уровень содержит 63 кода и характеризует 
каждое слово в парадигме — словоформу, так как содержит грамматическую инфор- 
мацию. Совокупность кодов первого и второго уровней и образует уникальный код, 
который приписывается конкретной словоформе. 

Были разработаны базовые словари для белорусского и русского языков. Общие 
размеры словарей составили: для белорусского языка — около 2,7 млн словоупотреб- 
лений, для русского — около 4 млн. Расчет производился для словоупотреблений, а не 
для слов, так как указанные языки принадлежат к флективным языкам и характери- 
зуются богатой словоизменительной парадигмой. 

Словарный состав всех указанных словарей постоянно обновляется. 

Дадим характеристику некоторым из них. 

Разработанный базовый словарь белорусского языка содержит слова, принадле- 
жащие ко всем существующим в языке частям речи, а также вводные слова и 
причастия, и является словарем словоформ, сгруппированных в парадигмы -— совокуп- 
ности словоизменительных форм, представленных в памяти компьютера вместе с 
соответствующими им ЛГК. 

В состав словаря имен собственных входят словники личных имен, фамилий и 
отчеств, наименований физико-географических объектов и территориальных единиц 
Беларуси, наименований мировых физико-географических объектов и территориаль- 
ных единиц, других наименований (названия государственных и общественных 
организаций, религиозных праздников, литературных памятников, языков програм- 
мирования и пр.). Эти слова повседневно употребительны, но, будучи именами 
собственными, традиционно в словари общей лексики не включаются. Данный словарь 
входит в многоярусную систему словарей языка, и без него описание сегодняшней 
белорусской лексики было бы неполным. 

Словарь аббревиатур и сокращений содержит наиболее употребительные сокра- 
щения современного белорусского языка и призван показать систему сокращений как 
часть его лексического фонда. 

Разработанный словарь синонимов белорусского языка содержит не только 
синонимы в их классическом понимании, но и варианты слова (например, дзёця — 
дз1цё), необходимые при информационном поиске и синтезе текста для их полного 
отождествления. 

Словарь омонимов белорусского языка представляет собой словарь омоформ, 
поскольку лексические, или простые, омонимы содержатся в базовом словаре бело- 
русского языка. В данном словаре не учитывается также внутрипарадигматическая 
омонимия, например, именительного и винительного падежей, если омонимичные 
формы содержатся в одной парадигме. 

Разработанный словарь антонимов белорусского языка представляет собой не 
просто список противоположных по значению слов, а содержит синонимические 
ряды, которые между собой являются антонимичными (противоположными по зна- 
чению). 

Словарь ударений белорусского языка разрабатывался на основе базового слова- 
ря белорусского языка с указанием образования грамматических форм и особенностей 
расстановки ударения. 
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Важной составляющей лингвистического обеспечения КФБЯ являются термино- 
логические словари — словари, содержащие терминологию одной или нескольких 
специальных областей знаний или деятельности. Их можно считать лингвистическими 
словарями подъязыков конкретных отраслей знания и/или видов профессиональной 
деятельности, тогда как с точки зрения общелитературного языка содержащаяся в них 
информация является скорее экстралингвистической. Число тематических словарей 
очень велико и постоянно увеличивается; многие терминологические словари к тому же 
являются двух- или многоязычными. Различные типы словарей предоставляют разные 
возможности для пользователя. 

Особенностью разработанных терминологических словарей является их двуязыч- 
ность: словари представлены на белорусском и русском языках. Данные словари 
могут служить основой для создания тезаурусов по предметным областям. 

Далее, в соответствии с указанной принципиальной схемой, были разработаны: 
— исходный корпус текстов для белорусского и русского языков (суммарный объем — 
10 млн словоупотреблений); 

— аннотированные корпусы текстов для белорусского и русского языков. 

Общие размеры аннотированных корпусов составили: для белорусского языка — 
около 400 тыс. словоупотреблений, для русского — около 1 млн. Расчет производился 
также для словоупотреблений. Для расчета среднего количества кодов для каждого 
словоупотребления из рассмотрения были исключены знаки препинания, формулы и 
иностранные слова. 

В качестве основного приложения КФБЯ была разработана информационная 
система, состоящая из словарей и аннотированного корпуса текстов, которая служит 
для информационно-справочного обслуживания пользователей относительно современ- 
ного белорусского языка в его письменной форме и обеспечения доступа к линг- 
вистическим компонентам фонда. Словари доступны пользователю как справочное 
средство (поиск слов, предоставление информации относительно словоизменения кон- 
кретных единиц словаря). 


Заключение 


Разработка лингвистических ресурсов — достаточно долгий и трудоемкий 
процесс, требующий привлечения высокопрофессиональных экспертов в области 
языка и соответствующих приложений одновременно. 

Предложенная технология разработки базовых лингвистических ресурсов ЕЯ 
является универсальной, что и было продемонстрировано при разработке лингвис- 
тических ресурсов белорусского языка. 

Эти ресурсы используются в различных системах, выполняющих обработку 
ЕЯ: корректировки орфографии, машинного перевода, автоматического реферирова- 
ния, информационного поиска и других. 

Предлагаемый подход может быть использован в аналогичных разработках для 
других естественных языков. 
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Розробка базових лигвстичних ресурсв природно! мови для 1нформащйних систем 

У статт! викладаються основн! принципи розробки базових л!нгв1стичних ресурав природно! мови. 
Наводиться перелк основних складникв, надаеться опис технологи створення цих ресурсв. У якост! 
прикладу використовування надано! технологи розглядаеться розробка базових л1нгв1стичних ресурав 
б1лорусько! та росйсько! мови. 


М№.К. Коиразйко 

Оеу@юортепе оЁ Мага! Гапоцасе Васе Глиошбйс Везоигсе$ ог шогтаНоп Зузет5 

ТБе агисе 4еа]$ у фе таш рипсре$ оЁ пафига] ]апечазе Базс Ппзйс гезоигсе$ деуеюртегт. Те Баз1с 
сотропеп6 ап4 гезоигсез сгеайоп {фесппо]оэу аге 4езсг ед. ТБе деу@юортеп! оЁ азс Ппеи1зЯс гезоигсез 
оЁе Веагазап апа Вазз1ап |апрпасез 1$ о1туеп аз а изасе ехатр/е оЁ зиосезе4 {есппо]озу. 


Статья поступила в редакцию 17.07.2008. 
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